无监督的域改编(UDA)试图通过利用标有标记的源数据集并将其知识传输到类似但不同的目标数据集的标记数据来超越标记数据。同时,当前视觉语言模型表现出显着的零拍词前字典能力。在这项工作中,我们将通过UDA获得的知识与视觉模型的固有知识相结合。我们引入了一种强大的指导学习计划,该计划采用零拍的预测来帮助源数据集和目标数据集对齐。对于强的指南,我们使用目标数据集的最自信的样本扩展了源数据集。此外,我们采用知识蒸馏损失作为弱指导。强大的指导使用硬标签,但仅应用于目标数据集中最自信的预测。相反,弱指南用于整个数据集,但使用软标签。薄弱的指导被用作知识蒸馏损失,并以(调整后的)零射击预测。我们表明,我们的方法从及时的视觉模型适应技术中得到了补充和好处。我们对三个基准(OfficeHome,Visda和Domainnet)进行实验和消融研究,表现优于最先进的方法。我们的消融研究进一步证明了我们算法的不同组合的贡献。
主要关键词